纽约城市大学研究生院教授列夫•马诺维奇(Lev Manovich)是引领全球数字文化研究的理论家之一,也是应用数据科学分析当代文化的先驱。接续了《新媒体的语言》(2002)中对于图像/影像在数字媒体或新媒体语境下的革命性转型的思考,马诺维奇《未来图像》(Image Future,2006)一文主要讨论了计算机图形——尤其以电影《黑客帝国》三部曲的第二、第三部中的全息捕捉特效技术——作为新的混杂体(New Hybrid)的混合美学,这可以看作计算机图形的元美学。20年后回看曼诺维奇在本世纪初所作的判断,我们认为这些文字依然具有超越性。其一,曼诺维奇对我们当下的图像形式作了判断,他认为我们当下依然生活在一种“摄影式(photographic)文化”中,今天的“摄影式”实际上是photoGRAPHIC,而照片(photo)只是为总体的图形混合提供一个初始层。其二,通过《黑客帝国》,旧的摄影式“基础”终于被新的计算机驱动的“基础”完全取代。其三,他认为在计算机图形的视野下,“动画”作为独立的媒介,事实上几乎不再存在了。如果说通过关键帧定义运动是20世纪动画的本质,那么今天动画的起点和终点在哪里? 动画如何成为这种混杂性的新空间的坐标轴之一?与其问《黑客帝国》是不是动画,更有成效的说法是:它的制作方法从动画中诞生,具有动画的DNA,而“动画是一个扩展了的场域”的观点是今天思考动画的更有成效的方式。最后,曼诺维奇认为:未来图像属于混杂体——新的计算机“基础”和旧的摄影式“上层建筑”的混杂。
今天,传统动画、电影摄影和计算机图形学的技术经常被结合使用,以创造新的混杂的活动图像形式。我以一个特别错综复杂的混杂体——《黑客帝国》三部曲的第二、第三部中使用的全息捕提法为例来讨论这个进程。我并不期望任何一种目前的“纯粹”形式会支配视觉文化和活动图像文化的未来,而是认为未来是属于这样的混杂体的。在 20 世纪的大部分时间里,商业活动的图像文化的不同领域都保持着各自分明的生产方法和美学。影片和卡通片是完全不同地生产出来的,很容易区分它们的视觉语言。今天的情况有所不同。活动图像生产在所有领域的计算机化创建了一个共同的技术库,不管是为电视、叙事长片、动画长片还是为音乐视频创作动态图像,这些技术都可以用到。将形象(imagery)的许多层以各种透明度而合成,将静止元素和活动元素放在一个共享的 3D 虚拟空间中,然后在这个空间中移动一台虚拟摄像机,应用模拟的(simulated)动态模糊和景深效果,随着时间推移而改变一帧的任何视觉参数——这一切技能,现在都可以应用于任何图像,无论是通过基于透镜的记录所捕捉的、手工绘制的,还是用 3D 软件创建的,等等。这种基于计算机技术的通用词汇的存在,不意味着所有影片现在看起来都一样。但这意味着,虽然大多数实拍影片和动画长片如今的确看起来很不一样,但这是有意选择的结果,而不是生产方法和科技上的差异带来的不可避免的后果。同时,在实拍影片和动画长片的王国之外,活动图像文化的美学在 1990 年代发生了戏剧性的变化。
发生的事情可以概括为以下几点。大约在 1990 年代中期,用于活动图像、静止图像之生产的模拟物理媒体(电影摄影、动画、平面设计、排版)、新的计算机媒体(3D 动画)和新的计算机技术(图像合成、多层次的透明度)在同一个计算环境中开始了互动,无论是个人计算机还是相对便宜的图形(graphics)工作站,小公司甚至个体都负担得起。结果就是涌现了一种新的混合美学,而它也迅速地成了规范。今天,这种美学在几乎所有短小的活动图像形式中都在发挥作用:电视广告和电视图形、音乐视频、动画短片、广播图形(broadcast graphics)、影片片头、网络头条(Web splash)页面。这种美学还定义了一个新的媒体生产领域——动态图形,但重要的是要注意,混合美学不局限于这个领域,而是在其他任何地方都可以发挥作用。这种美学在无尽的变化中存在着,但其逻辑是相同的:在同一段落中,而且往往是在同一帧中,并置起以往不同的媒体那各自分明的视觉语言。手绘元素、摄影剪像(cutouts)、视频、字体、3D 元素不是简单地放在各自边上,而是交织在一起。由此产生的视觉语言是一种混杂体(hybrid)。它也可以被称为元语言,因为它结合了设计、排版、赛璐珞动画(cell animation)、3D 计算机动画、绘画和电影摄影的各门语言。
有了特效的呈现(features)后,对于今天包围着我们的运动图像的短小段落中的绝大多数,其混合美学(或元美学)正是对于运动图像的生产的计算机化那最可见的效果。在这个情况下,动画经常是作为一个段落的一个元素,甚至是一帧而出现。但这只是动画在当代后数码视觉的风景中一个比较明显的作用。在这篇文章中,我将讨论它的另一个角色:作为一种普遍化了的(generalized)技术,可以应用于任何图像,包括影片、视频。在这里,动画不是作为媒介物(medium)在起作用,而是作为一套通用的技术,与在电影人/设计师可用的共同选择库里的其他技术被一起使用着。我为我的讨论选了一个特例,我认为它将形象地说明动画的这个新角色。这是一种相对新的将实拍和 CG 结合起来的方法。其创建者称之为“全息捕捉”(U-cap),而它首次被 ESC 娱乐公司系统地在《黑客帝国》三部曲中的《黑客帝国 2》《黑客帝国 3》两部片中作了大规模应用。我将讨论这种方法如何不同于整合了实拍和计算机图形元素的这一现在标准的、也是较早的技术。全息捕捉也创建了视觉混杂体,但这些混杂体与今天在动态图形和其他短小的活动图像形式中可以找到的混杂体截然不同。在全息捕捉的情况中,不同类型的图像不是混合在一起,而是融合在一起,以创建新一类图像。这种图像结合了两类形象的那些“最佳”性质,我们通常将其理解为在存有论上的(ontologically)两个对立面:实拍和 3D 计算机动画。我会建议说,这样的图像混杂体很可能在未来的视觉文化中扮演一个很大的角色,而不与任何东西融合或混合的“纯粹”图像的位置可能会被削弱。电影《黑客帝国 2》剧照,2003
不平衡的发展
往后的几十年,什么样的图像会主导视觉文化?它们还会类似于今天包围我们的那种典型的图像吗——经过数码处理的照片,上面带有各式的图形元素和字体?还是未来的图像会完全不同?摄影式代码会不会逐渐消失,而转向其他东西?有很好的理由来设想未来的图像会像照片一样。就像病毒一样,照片被证明是一种有着令人难以置信的弹性的表征代码:它在一波波的科技变化中幸存了下来,包括对于文化生产和发行的所有阶段的计算机化。摄影式代码的这种持久性的原因在于它的灵活性:照片可以很容易地与所有其他视觉形式相混合——图画、2D 和 3D 设计、线形图和字体。因此,尽管照片真正主导了当代视觉文化,但它们中的大多数并不是纯粹的照片,而是各种突变和混杂体:照片经过了各式滤镜、手动调整,以获得更风格化的外观、更平面的图形外观、更饱和的颜色,等等;混合了设计、字体的元素的照片;不限于人眼可见的部分光谱的(夜视 [原文 nigh vision,应为“night vision”]、X 射线)的照片;用 3D 计算机图形完成的模拟照片,等等。因此,当我们可以说今天我们生活在一种“摄影式(photographic)文化”中的时候,我们也需要开始以新方式来解读“摄影式”一词。今天的“摄影式”实际上是 photoGRAPHIC,照片(photo)只是为总体的图形混合提供一个初始层。(在活动图像的领域,“动态图形”一词完美地捕捉到了同样的发展:实拍的电影摄影从属于了图形代码)在自然、社会和文化中起变化的一种方式是由内而外。内部结构首先变化,而这种变化只是在后来才影响到可见的表皮。例如,根据马克思主义历史发展理论,基础设施(即特定社会的生产方式,也被称为“基础”)的变化远早于上层建筑(这个社会的意识形态和文化)。在另一个例子中,想想 20 世纪的科技性设计:典型的是,新一类机器一开始被安放在令人熟悉的旧表皮里,例如,20 世纪早期的汽车效仿了马车的形式。我们熟悉的麦克卢汉的想法——新媒体首先会效仿旧媒体,就是这类变化的另一个例子。在这种情况下,媒体生产的一个新模式,可以说,在新结构涌现之前,首先是被用来支持媒体组织的旧结构的。例如,第一批排版的书是被设计为来效仿手写的书;电影首先效仿了戏剧;等等。这种不平衡发展的概念对思考当代视觉文化的变化可以很有用。自从 50 年前这个进程开始后,摄影(和电影摄影)的计算机化至今已经完全改变了摄影式图像的内部结构。然而,它的“表皮”,即一张典型的照片的外观,仍然在很大程度上保持不变。因此,有可能在未来某一刻,图像的“表皮”也会变得完全不同,但这还没有发生。所以,我们可以说目前我们视觉文化是以新的计算机“基础”和旧的摄影式“上层建筑”为特点的。
“黑客帝国”系列影片为我们提供了一套非常丰富的例子,可以完美地用来进一步思考这些议题。这个三部曲是关于其视觉宇宙如何被构建的一个寓言。也就是说,影片向我们讲述了矩阵(The Matrix),这个由计算机所维护的虚拟宇宙,而理所当然的是,在视觉上,我们观众在片中看到的矩阵的图像确实都是在软件的帮助下装配而成的(动画师有时会用“玛雅”,但主要是靠定制编写的程序)。所以,在我们这些影片观众和活在矩阵中的人之间有一个完美的对称性,除了运行母体的计算机能够实时呈现矩阵,而每部“黑客帝国”影片中的大多数场景都需要几个月甚至几年才能整合在一起。(所以,“黑客帝国”也可以被阐释为计算机游戏的未来主义愿景,在未来那一刻,将有可能实时渲染“黑客帝国”风格的视觉效果)矩阵这一视觉世界的关键是一套新的计算机图形技术,这些技术多年来是由学术界和特效行业的一批人开发的,包括乔治·博舒科夫(George Borshukov)和约翰·盖埃塔(John C. Gaeta)。发明者们为这些技术造了许多名字:“虚拟电影”、“虚拟人”、“虚拟电影摄影”、“全息捕捉”。这些技术共同代表了计算机驱动的特效史上的一个真正的里程碑。它们将动作捕捉这样的 1990 年代的进展推向了逻辑终点,并同时开启了一个新阶段。我们可以说,通过“黑客帝国”,旧的摄影式“基础”终于被新的计算机驱动的“基础”完全取代。还有待观察的是,摄影式图像的“上层建筑”——它所表征的东西和表征的方式,将如何变化以迎合这个“基础”。现实模拟对比现实取样
在继续下文之前,我要指出,“黑客帝国”中的特效并非全靠全息捕捉,而且理所当然的是,其他好莱坞影片已经使用了一些相同的策略。然而,在本文中,我决定聚焦在“黑客帝国”中对这一进程的使用上,因为全息捕捉实际上是为三部曲的第二、第三部开发的。虽然开发这个进程所涉及的所有人的完整职员表会占据很多行,但在本文中,我将把它关联到盖埃塔身上。原因不是因为,作为《黑客帝国:重装上阵》《黑客帝国:矩阵革命》的高级特效主管,他得到了最多的宣传。更重要的是,与特效行业的其他许多人相反,盖埃塔对他和他的同事们所开发的技术作了广泛的反思,将其呈现为电影和娱乐的新范式,并造了有用的术语和概念来理解它。
为了更好地理解盖埃塔的方法的意义,让我们简单地回顾一下逼真(photo-realistic)的 3D 图像合成的历史及其在电影业的应用。1963 年,劳伦斯·G·罗伯茨(Lawrence G. Roberts)(他后来在 1960 年代成为开发阿尔帕网 [Arpanet] 的关键人物之一,但当时还是麻省理工学院的一名研究生)发表了一份关于以直线透视(linear perspective)构建图像的计算机算法的描述。这些图像将物体的边缘表征为线条;用计算机图形学的当代语言,可以称之为“线框”。大约十年后,计算机科学家设计了允许创建阴影图像的算法(所谓的高氏着色法 [Gouraud shading] 和裴氏着色法 [Phong shading],以创建相应算法的计算机学家的名字命名)。从 1970 年代中期到 1980 年代末,3D 计算机图形学领域经历了快速发展。每年都有新的基础技术被创建出来:透明度、阴影、图像映射、凹凸纹理、粒子系统、合成、光线追踪、辐射度算法(radiosity)等等。在这个领域的历史上富有创造性和成果的时期结束时,人们可可能使用这些技术的组合,对几乎所有主题(subject)来合成出图像,而这些图像往往不易区分于传统的电影摄影。这整个研究都是基于一个基本假设:为了重新创建一个图像,让其现实与电影镜头所捕捉的现实同一,我们就要系统地模拟这个图像的构建所涉及的实际的物理学。这意味着模拟光源、不同材料(布、金属、玻璃等)的属性以及物理上的电影镜头的属性之间的复杂互动,包括这些东西的一切限制,如景深、动态模糊。因为对计算机学家来说,如果他们完全模拟这整个物理学,计算机很明显会需要花很长时间才能计算出单单一个图像,所以他们把精力放在发明各种捷径上,从而创建了足够写实的图像,同时涉及了较少的计算步骤。所以,事实上,我在上一段提到的每项图像合成技术都是这样的“非法侵入”(hack)——对光源、材料和镜头之间所有可能的相互作用组成的一个特定子集的一种特定的近似。这种假设也意味着你在从头开始,一步步地重新创建现实。每当你想为某个物体或场景制作静态图像或动画时,就重播了一遍《圣经》中的创世故事。
(我想象上帝创造宇宙时,要通过一个像“玛雅”这样的专业的 3D 建模、动画和渲染程序上的众多菜单。首先,祂必须制作所有的几何图形:操纵样条(splines)、挤压轮廓、添加斜面......接下来,为了每个物体和生物,祂都得选择材料属性:镜面反射颜色、透明度水平、图像、凹凸贴图和反射贴图,等等。祂完成了一组参数,擦了擦额头,又开始做下一组参数。现在要定义光:又有几十个菜单选项要选。祂渲染了场景,看着结果,并欣赏祂的创作。但祂还远远没有完成:祂心中的宇宙不是一个静止图像,而是一个动画,这意味着水要流,草和叶子要在风吹下拂动,所有造物也必须移动。祂看到并打开另一组菜单,在那里祂必须定义那些模拟着动态物理的算法的参数。然后继续,继续,再继续。最后,世界本身就完成了,而且看起来不错;但现在上帝想创造人,这样祂就能欣赏祂的创造了。上帝又看了看,从书架上拿了本特定的“玛雅”使用说明,而整个书架都被这套手册占据了......)
当然,我们处在比上帝要好些的位置上。祂是第一次创造万物,所以祂不能从任何地方借用东西。因此,一切都必须从头开始建立和定义。但我们不是在创造一个新宇宙,而是在视觉上模拟已经存在的宇宙,即物理现实。因此,从事 3D 计算机图形技术研究的计算机学家很早就意识到,除了对涉及到的物理学的近似,他们有时还可以取另一条捷径。与其通过算法从头开始定义一些东西,他们不如简单地从既有现实中取样,并在构建进程中纳入这些样本。
这个想法的应用实例是 1970 年代后半期已经引入的纹理贴图和凹凸贴图技术。通过纹理贴图,任何 2D 数码图像在数学上都被包裹在 3D 模型上,其中 2D 图像可以是一些纹理的特写,如木纹、砖块,也可以是其他任何东西,例如商标、脸部或云朵的照片。这是一种非常有效的方法,来在虚拟场景中增加一个真实世界的视觉丰富性。凹凸纹理以类似的方式来工作,但在这里,2D 图像被用作快速增加几何图形本身的复杂性的一个方式。例如,艺术家可以简单地拍一张现有墙壁的照片,将其转成灰度图像,然后将该图像输入渲染算法,而不必对组成混凝土墙的 3D 纹理的所有小裂缝、压痕进行手工建模。该算法将灰度图像当成深度图,也就是说,每个像素的值都被解释为表面的相对高度。所以,在这个例子中,浅色像素成为墙上靠前一些的点,而深色像素则成为靠后一些的点。结果就是极大节省了重新创建我们的物理现实中一个非常重要的特定方面所需的时间:在大多数自然的和许多人造的表面,从树皮到织布,都可以发现细微的、通常有规律的 3D 纹理。其他基于对既有现实进行取样这一想法的 3D 计算机图形技术,还包括反射贴图、3D 数码化。尽管所有这些技术一经发明就一直被广泛使用,但计算机图形学领域的许多人(就我所见)总觉得他们在作弊。为什么呢?我认为是有这种感觉的,因为创建逼真的计算机图形的总体概念范式是通过算法从头开始模拟一切。所以,如果你不得不使用基于直接取样现实的技术,你多少会觉得这只是临时的,因为适当的算法还没有开发出来,或者因为机器太慢。你也有这种感觉,因为一旦你开始对现实进行手动取样,然后试图将这些样本纳入你用算法定义的完美图像中,很少会恰到好处地适合,需要费力的手动调整。例如,纹理贴图如果应用于垂直表面(原文 strait surface 应该有误),就能完美地奏效,但如果表面是弯曲的,就会产生不可避免的变形。
在整个 1970、1980 年代,“现实模拟”范式和“现实取样”范式是并行地共存的。更准确地说,就像我在上面建议的那样,取样范式被“嵌入”到了现实模拟范式中。常识是,创建对现实的逼真图像的正确方法是尽可能精确地模拟其物理学。现在,对既有现实进行取样,然后将这些样本添加到虚拟场景中,这是玩过度诚实的模拟游戏时的一个技巧、捷径。构建矩阵
到目前为止,我们看了 3D 计算机图形学领域的种种范式,但没有考虑那些模拟图像的用途。所以,如果你想把逼真的图像纳入一部影片,会发生什么?这就引入了一个新的约束。不仅每个模拟图像要有内部的一致性,投射的阴影对应光源,等等,而且现在,模拟图像还必须与影片的电影摄影保持一致。模拟宇宙和实拍宇宙必须完美匹配(我在这里说的是计算机图形学在故事片中的“正常 ”使用,而不是电视图形、音乐视频等故意并置了不同视觉代码的那种混合美学)。回过头来看,这种新的约束最终改变了两个范式之间的关系,并且有利于取样范式。但这只是在“黑客帝国”系列片将取样范式当成其视觉宇宙的基础后,如今才变得可见。起初,当电影人开始在影片中纳入合成的 3D 图像时,这丝毫没有影响到计算机学家对计算机图形学的思考。1980 年,3D 计算机图形第一次短暂地出现在一部故事长片中,即《神秘美人局》(Looker)。在整个 1980 年代,一批影片使用了计算机图像,但总是作为总体影片叙事中的一个小元素。(1982 年上映的《创世纪》可以和《黑客帝国》相提并论,因为它的叙事宇宙是位于计算机中的,并且是通过计算机图像所创建的,但这是个例外)。例如,“星际迷航”系列中的一部影片包含了一个行星诞生的场景,那是用第一个粒子系统创建的。但这只是一个场景,与片中所有其他场景没有互动。电影《神秘美人局》(Looker)剧照,1981
1990 年代初,情况起了变化。随着《深渊》(詹姆斯·卡梅隆,1989 年)、《终结者 2》(詹姆斯·卡梅隆,1991 年)和《侏罗纪公园》(斯蒂芬·斯皮尔伯格,1993 年)等先驱性的影片的出现,计算机生成的角色成了故事长片的关键主角。这意味着他们将出现在全片的几十甚至几百个镜头中,而且在这些镜头中,计算机的角色必须与真实环境和通过摄影实拍所捕捉到的人类演员整合在一起(在商业上称为“live plate”)。例如《终结者 2:审判日》中的 T-100 赛博格(cyborg)角色或《侏罗纪公园》中的恐龙。这些计算机生成的角色位于实拍宇宙内部,是通过 35 毫米电影镜头对物理现实进行取样的结果。模拟世界座落在被捕捉的世界内部,而且两者必须完美匹配。电影《终结者 2:审判日》剧照,1991
正如我在《新媒体的语言》对合成的讨论中指出的那样,使不同来源的元素完美地保持一致是基于计算机的现实主义的基本挑战之一。在整个 1990 年代,电影人和特效艺术家使用各种技术和方法来处理这一挑战。盖埃塔比其他人更早意识到的是,使实拍和 3D 计算机图形这两个宇宙保持一致的最佳方法就是建立一个单一的新宇宙。盖埃塔及其同事们没有把取样现实仅仅当成与图像合成的许多其他“合适的”(proper)算法式技术一起使用的一项技术,而是把它变成了全息捕捉这一进程的关键基础。这一进程系统地拆开了物理现实,然后系统地将这些元素重新组合成基于计算机的虚拟表征。结果就是新一类的图像,具有摄影式/电影摄影式的外表和细节水平,但内部却以一种完全不同的方式而被结构了起来。在 2000~2003 年的 3 年时期里,全息捕捉得到了发展和完善。这个进程是怎么工作的?基本程序如下,虽然实际上有更多的阶段和细节。演员在环境照明下的表演是用 5 台同步的高分辨率摄像机所记录的。这种情况下的“表演 ”包括演员在片中所说的一切,以及所有可能的面部表情。(在制作中,工作室每天要捕捉超过 5TB 的数据) 接下来,特殊的算法被用来跟踪每个像素在每帧中随着时间的运动。这一信息与使用 cyberscan 扫描仪创建的演员的中性表情的一个 3D 模型相结合。结果就是一个动画式的 3D 形状,它随着演员头部在一个特定表演中发生的变化,准确地表征了头部的几何形状。这个形状就以从被捕捉的视频段落中提取的颜色信息而被绘制了出来(mapped)。对演员面部的一个更高分辨率的单独的扫描被用来创建毛孔、皱纹等小规模的表面细节的映射(map),而这个映射也被添加到了模型中。
在所有数据都被提取、保持一致和结合之后,结果就是盖埃塔所说的“虚拟人”——对被捕捉的表演的一个高度精确的重建,而今就可以作为一个 3D 计算机图形数据来用了,同时有着这样的表征所带来的所有优势。例如,由于演员的表演现在是作为一个 3D 物体存在于虚拟空间,电影人可以让虚拟镜头动起来(animate),从任意角度“播放 ”重建的表演。类似地,虚拟的头部也可以以任何想要的方式进行照明。例如,《黑客帝国 2》中以一敌百(Burly Brawl)这个场景出现的所有角色都是把对于主演进行全息捕捉的头部,与对于另一组表演者使用了动态捕捉的数据的那些 CG 身体结合而成的。由于所有角色和场景都是计算机生成的,这就使得场景的导演可以编排虚拟镜头,让它在场景中飞来飞去,而这是在真实的物理场景中的真实镜头做不到的。电影《黑客帝国 2》剧照
这个进程被恰当地命名为全面捕捉,因为它使用多个记录方法,从一个物体或场景中捕捉所有可能的信息,或者至少是用当前技术可能捕捉到的信息。不同的维度——颜色、3D 几何、反射率和纹理,都被一一捕捉,再组合在一起,以创建一个更详细、更现实主义的表征。—比如关键帧动画、基于物理的建模——的方法大为不同。在第一个方法中,动画师要列举出 3D 模型的那些关键位置,而计算机则计算位置之间的那些帧。在第二种方法中,所有动画都是由模拟着那暗含于运动之中的物理学的软件所自动创建的。(因此,这种方法代表了我讨论过的“现实模拟”范式的一个特例)。例如,为了创建关于运动着的造物的一个现实主义的动画,程序员对其骨骼、肌肉和皮肤进行建模,并列举出那些模拟着相关的实际物理学的算法。两种方法往往结合在一起:例如,基于物理学的建模可以用来让一只奔跑的恐龙动起来,而手动动画则可以用于恐龙与人类角色互动的镜头。近年来,基于物理的建模上最令人印象深刻的成就是《指环王:王者无敌》(彼得·杰克逊,2003 年)中的战役,涉及了成千上万的虚拟士兵,全都由软件“Massive”驱动。类似于计算机游戏中的非人类玩家(或机器人程序 [bots]),每个虚拟士兵都被给予了“看到”地形和其他士兵的能力,一套优先顺序和一个独立的“大脑”,即一个人工智能程序,它在根据知觉输入、优先顺序来指挥角色的行动。但与游戏的人工智能相反,软件“Massive”不需要实时运行。因此,它可以创建具有数万甚至数十万个现实地行事的能动者的场景(在软件“Massive”的帮助下创建的一个广告呈现了 146000 个虚拟人物)电影《指环王:王者无敌》剧照,2003
全息捕捉的手方法既不使用手动动画,也不模拟所暗含的物理学。相反,它直接对物理现实进行取样,包括颜色、纹理以及演员的运动。演员表演的简短段落被编码为 3D 计算机动画;这些动画形成了一个库,然后电影人合成一个场景时可以从中提取。在这里,与音乐取样的类比是明显的。就像盖埃塔所指出的那样,他的团队从未用过手动动画来尝试细调角色面部;然而,就像音乐家可能会做的那样,他们经常会“保持”特定表情,然后再进行下一个。这暗示了与录像带剪辑的一个类比。但这不是一种什么二度剪辑:盖埃塔的方法不是简单地把现实的片段捕捉到视频上,然后把它们接到一起,而是对特定现象而生产出完整的虚拟性的再创造——自成一体的微观世界,然后可以进一步剪辑并嵌入更大的 3D 模拟空间。
作为一个理念的动画
我在上文为了解释“全息捕捉”而对计算机图形的种种方法呈现了简要回顾,这就为动画在当代活动图像文化中的多样的(the multiplicity of)使用方式提供了很好的例子。如果我们考虑到这种多样性,就有可能得出这样的结论:“动画”作为独立的媒介,事实上几乎不再存在了。同时,在 19、20 世纪的动画中发展起来的将物体、图像置于动态的一般原理和技术,如今是比计算机化之前要使用地频繁得多了。但这些原理、技术几乎没有被单独使用过,而通常是与来自实拍的电影摄影和计算机图形的其他技术相结合。那么,今天动画的起点和终点在哪里?当你看到迪斯尼的动画长片或动态图形短片时,很明显,你在看“动画”。不管这个进程关系到的是手绘的还是使用 3D 软件所制作的图像,原理都一样:有人创建了图画或 3D 物体,设置了关键帧,然后创造了关键帧之间的位置。(当然在商业影片的过程中,这不是一个人在做,而是多个大型团队)物体可以以多样的方式创建,而之间的东西(inbetweening)可以由软件手动或自动完成,但这并不改变基本逻辑。运动,或者随着时间的任何其他变化,都是手动定义的,通常是通过关键帧(但也不一定)。回头来看,通过关键帧定义运动,可能是 20 世纪动画的本质。这被迪斯尼等公司用于传统的赛璐珞动画,被斯塔雷维奇(Starevich)和特恩卡(Trnka)用于定格动画,被皮克斯公司用于 3D 动画短片,而今继续被用于那结合了传统赛璐珞方法和 3D 计算机动画的动画长片。而诺曼·麦克拉伦这样的实验动画师则拒绝关键帧/之间这一系统,而是没有明确定义关键帧,就在胶片上手工绘制每一帧,但这并没有改变总体逻辑:运动是由手工创建的。毫不奇怪,多数动画艺术家各有不同地利用了动画的这一关键特征,将其转变成了美学:例如,迪斯尼片中夸张的压扁和拉伸,或者麦克拉伦的帧之间不连续的跳跃。特恩卡:定格动画《手掌》,1965
那么,还有什么其他方式可以把图像、物体投入运动呢?例如,考虑一下计算机图形学中发展的方法:基于物理的建模,粒子系统,形式语法,人工生命和行为动画(behavioral animation)。在所有这些方法中,动画师并不直接创建运动。相反,运动是由使用某类数学模型的软件所创建的。例如,在基于物理模型的情况下,动画师可以设置一个计算机模型的参数,而该模型模拟了一股物理力量,比如风,会使一块布在若干帧内变形。或者,她(原文 she)可以指示球落在地上,而且让物理模型控制球碰地面后如何反弹。在用于给从烟火、爆炸、水和气到动物群和蜂群等一切建模的粒子系统中,动画师只需定义初始条件:粒子的数量、速度、寿命等等。与实拍电影相反,这些计算机图形学的方法并不捕捉真实的物理运动。这是否意味着它们属于动画?如果我们接受了传统动画的决定性特征是手动创建运动这一点,答案就是否定的。但事情并非如此简单。在所有这些方法中,动画师设定了初始参数,运行模型,调整参数,并重复这个生产循环,直到她对结果满意为止。所以,虽然实际动作不是通过数学模型来亲手制作的,动画师还是保留着重要的控制权。在某种程度上,动画师像电影导演一样行事,只是在这个情况下,她指导的不是演员,而是计算机模型,直到它产生令人满意的表演(performance)。或者我们也可以把她比作影片剪辑,在计算机模型的那些最佳表现(performance)中挑选着。
詹姆斯·布林(James Blinn),一位负责创建许多计算机图形学基本技术的计算机学家,曾经做过一个有趣的类比,来解释手动关键帧的方法与基于物理的建模的区别。他在美国计算机协会计算机图形专业组的一次会议(SIGGRAPH)上告诉听众,两个方法之差可以类比为绘画与摄影之差。用布林的话说,动画师通过手动定义关键帧并在帧之间作画来创建运动,就像画家观察世界,然后把它画下来。绘画与世界之相似性取决于画家的技能、想象力和意图。而使用基于物理的建模的动画师就像摄影师,捕捉到的是原样的世界。布林想强调的是,数学技术可以对物理世界中的运动创建现实主义的模拟,而动画师只需要捕捉模拟所创建的东西。虽然这个比喻很有用,但我认为并不完全准确。显然,布林心中的传统摄影师(即在 Photoshop 以前的摄影师)会选择构图、对比度、景深和许多其他参数。类似地,使用基于物理的建模的一个动画师也对大量参数有着控制,而模型要生产出令人满意的动画,却取决于她的技巧和毅力。考虑一下下面这个来自与软件艺术相关的领域的例子,其中使用了一些相同的数学方法。凯西·瑞斯(Casey Reas),一位因他的 Processing 编程环境以及他自己的静态图像和动画而闻名的艺术家,最近告诉我,他可能会只花几小时写一个软件程序来创建新作品,然后再花两年来处理同一个程序的不同参数,以制作无尽的测试图像,直到他对结果满意为止。所以,在基于物理的建模中,运动是计算机创建的,因而这一建模最初看起来是传统动画的反面,但事实上它应该被理解为动画与计算机模拟之间的一个混杂体。虽然动画师不再直接画出运动的每个阶段,但她还是在用数学模型的参数来“画”出实际运动。
那么“黑客帝国”中使用的全息捕捉法呢?盖埃塔及其同事也排除了关键帧动画,但他们没有使用任何数学模型来自动生成动态。就像我们看到的那样,他们的解决方案是捕捉演员的实际表演(即演员的面部运动),然后将其重建为一个 3D 段落。这些重建起来的段落一起构成了一个面部表情库。然后,电影人就可以从这个库中提取,并剪辑出由表情组成的一个段落(而不干扰那些个别的段落的任何参数)。重要的是要强调,3D 模型没有肌肉或其他传统上用于让计算机图形式面部动起来的控制方法,而是“原样”使用的。就像在动画师运用数学模型这个情况中一样,这个方法避免了手绘出个别的运动。然而,其逻辑是动画的逻辑,而不是电影的逻辑。电影人选择了演员表演的一些单独的段落,对其进行剪辑,必要时将其混合,并按特定顺序放置,以创建一个场景。简言之,场景实际上是手工构建的,尽管其组件并不是。所以,在传统动画中,动画师绘制每一帧来创建一个短的段落(例如,一个角色转头),而在这里,电影人则在更高的水平上“绘制”:操纵整个段落,而不是段落中个别的帧。为了创造最终的电影场景,全息捕捉与虚拟电影摄影结合了起来:布光、“拍摄”着虚拟表演的一个虚拟镜头的位置和运动。是什么使这种虚拟电影摄影有别于单纯的计算机图形呢?原因是,虚拟镜头看到的世界不同于计算机图形学的正常世界,前者由通过全息捕获来创建的实际表演者和实际场景的重建所组成的。目的是避免通常用于创建 3D 模型和场景的更为手动的进程。相反,关于物理世界的数据则是捕获来的,然后被用于创建一个精确的虚拟性的副本。电影《黑客帝国》拍摄现场
最终,ESC 在“黑客帝国”中使用的制作方法既不是“纯粹的”动画,也不是电影摄影、传统特效,更不是传统 CG。而这也典型地体现了当今的活动图像文化。从这些不同传统中汲取而来的技术,当它们在计算机环境中融合在一起时,结果不是各组件之和,而是各种混杂的方法组成的一种杂多(a variety of),就像全息捕捉。我相信,不同的活动图像技术现在一般就是这样运作的。在计算机化将这些技术虚拟化之后——将它们从特定的物理媒体中“提取 ”出来变成算法,它们就开始互动,并创建出一些混杂体。这意味着在大多数情况下,我们将找不到纯粹的原始状态的这些技术。例如,当我们在动态图形、影视节目中看到景深效果时,这些节目既没有用实拍片段,也没有用逼真的 3D 图形,而是一个更风格化的外观,那么这意味着什么?景深最初是基于透镜而进行记录的一个人造物,而当 3D 计算图形领域的主要目标是创建最大的“逼真”,即合成场景与电影摄影的实拍无法区分时,计算机中就曾模拟出了景深。但是,一旦这项技术变得可用了,活动图像的艺术家渐渐意识到,不管视觉风格有多现实主义或抽象,只要暗示了一个 3D 空间,那么这项技术都用得上。符合透视法地穿过空旷空间的排版;位于 3D 空间中不同层上绘制出来的 2D 人物;一个动起来了的(animated)粒子场......任何构图都可以通过模拟的景深来实现。
这种效果是模拟的,而且是从其原始的物理媒体中移除了——这一事实意味着设计师可以用各种方式来操纵这种效果。定义了空间的哪一部分是在焦点上的那些参数,可以独立地动起来,即设置为随时间而变化,因为它们只是控制算法的数字,而不是内置于一个物理透镜的光学元件(optics)的东西。所以,虽然模拟的景深可以说是保持了它来源于的特定物理媒体(基于透镜的照片和影片记录)的记忆,但这一景深却成为了本质上的新技术,作为有其的权利的“角色”而运作着。它具有前所未有的流动性、易变性。它与物理世界的连接最多也是意向不明而已。一方面,只有当你构建一个 3D 空间时,使用景深才有意义,即使它是以最小的方式定义的,只使用一些甚至是单一个深度线索(depth cue),如线条向没影点汇聚或者用透视法缩短。另一面,设计者可以说是以想要的任何方式来“绘制”这种效果。控制景深的那条轴不需要垂直于图像平面,聚焦的区域可以是空间的任何地方,也可以在空间中快速移动,等等。回到全息捕捉,值得引用一下盖埃塔的话,而他本人非常清楚,他及其同事创建的是一个新的混杂体。在 2004年的采访中,他说:“如果我要定义虚拟电影,我会说它介于实拍影片与计算机生成的动画影片之间。它是计算机生成的,却来自真实世界的人、地方和事物。”尽管全息捕捉为这样的“介于......之间”提供了一个令人饶有兴趣的例子,但今天创建的活动图像的多数形式也类似地是“介于......之间”的,其中动画就是这种混杂性的新空间的坐标轴之一。“全息捕捉”:重新组装的现实
被称为全息捕捉的方法结合了两个世界的优点:由基于透镜的镜头所捕捉的物理现实,与合成的 3D 计算机图形。虽然有可能通过手动的绘画、动画,以及各种计算机图形技术(纹理贴图、凹凸贴图、物理建模等)来重建可见世界的丰富性,但在所涉及的劳动方面,这样做是昂贵的。即使是基于物理的建模技术,在动画看起来对头前,也要对无尽的参数进行维调。相反,通过透镜在胶片、磁带、DVD-R、计算机硬盘或其他媒体上捕捉可见的现实是很便宜的:只需对准镜头,按“录制”键。
这样的记录的缺点是缺乏当代混录文化所要求的灵活性。这种文化要求的不是自成一体的审美对象或自成一体的记录现实,而是更小的单元——可以轻松变化并与其他部分进行无穷组合的部分。然而,基于透镜的记录进程拉平了现实的语义结构,即占据 3D 物理空间各自分开的区域的不同物体。它将一个充满离散物体的空间转换成了图像颗粒或者说像素所组成的一个平坦的场域,不承载任何关于它们来自何处(即它们对应什么物体)的信息。因此,任何形式的剪辑操作——删除物体、添加新物体、合成等,都变得困难重重。对图像中的物体完成任何操作之前,必须通过创建一层蒙版来手动分离它。而且,除非图像中显示的物体被适当地打了光,并在特殊的蓝色或绿色背景前拍摄,否则就不可能精确地遮蔽物体。相反,3D 计算机生成的世界具有人们对信息时代的媒体所期望的准确的灵活性。(因此,在先进的工业社会到信息社会的转形变得可见的同一个十年里,3D 计算机图形学表征,连同超文本和其他基于计算机的数据表征的新方法一起,都被概念化了,这并非偶然)在 3D 计算机生成的世界里,一切都是离散的。世界由一批分开的物体组成。物体由 XYZ 坐标所描述的那些点来定义;物体的其他属性,如颜色、透明度和反射率,也类似地是用离散的数字来描述的。这意味着一个场景的语义结构被完全保存了下来,并且在任何时候都可以轻松存取。上百次复制一个物体,只需要点几下鼠标或输入简短的命令;类似地,一个世界的所有其他属性也总是可以很容易地变化。而既然每个物体本身都由离散的组件(平坦的多边形或由样条定义的面片 [surface patches])组成,通过挑选、操纵其组件来改变物体的 3D 形式也是同样容易的。此外,就像一个基因序列(sequence)包含了被扩展为一个复杂有机体的那一代码,对 3D 世界的一段紧凑描述只包含了物体坐标,可以通过网络快速传递,并由客户端计算机重建完整的世界(在线多人计算机游戏和模拟器就是这样工作的)。从 1970 年代末,詹姆斯·布林引入纹理贴图开始,计算机学家、设计师和动画师渐渐扩展了在现实世界中可以被记录然后纳入计算机模型的信息范围。直到 1990 年代初,这些信息大多涉及物体的外观:颜色、纹理、光效。下一个重要步骤则是动态捕捉的发展。在 1990 年代前半期,它被电影和游戏行业迅速采纳。现在,由计算机合成的世界不仅有赖对真实世界的视觉外观的取样,还有赖对这个世界上动物和人类的运动的取样。在所有这些技术的基础上,盖埃塔的方法将它们带到了一个新阶段:捕捉当前可以捕捉的几乎一切,然后重新组装样本,创造一个数码的(因此是完全有延展性的)再创造。在一个更大的语境中,作为结果的 2D/ 3D 混杂在一起的表征完美地符合当代文化中最先进的趋势,而这些趋势都是基于一个混杂体的想法。
新的混杂体
我强烈的感觉是,新兴的“信息美学”(即信息社会特有的新的文化特征)已经或将会有与现代主义大相径庭的一个逻辑。现代主义是由消除旧事物的强烈欲望所驱动的,这在先锋艺术家(尤其是未来主义者)关于博物馆应该被烧毁的声明中,以及在 1917 年革命后俄罗斯许多人对所有社会现实和精神现实的戏剧性破坏中,以及在1945 年后成为苏联卫星国的其他国家,都可以看到。在文化和意识形态上,现代主义者想从“白板”(tabula rasa)开始,从根本上与过去拉开距离。只是到了 1960 年代,这一举动才开始觉得不合适,而这既显示在共产主义国家的意识形态的松动上,也显示在西方新的后现代感性的开始上。引用罗伯特·文图里(Robert Venturi)等的名著的书名(出版于 1972 年,是新感性的第一个系统性的表现),“向拉斯维加斯学习”(Learning from Las Vegas)意味着承认有机地发展本地语文化会涉及拼装、杂种状态(bricolage and hybridity),而不是在例如“国际化风格”中看到的纯粹性,后者是当时全世界建筑师都在实践的。与其说是被模仿本地语文化的欲望驱动,不如说是由于以前的文化人造物被储存在磁性媒体和不久后的数字媒体上的新的可用性的驱动,使得在 1980 年代,西方的商业文化系统地用风格性的异质性取代了纯粹性。最后,当苏维埃帝国崩溃时,后现代主义赢得了世界。今天,我们有一个非常真实的危险,就是被新的“国际风格”所禁锢——某个我们可以(称为)“全球国际性”的东西。文化的全球化,其中廉价航空的航班和互联网是两个最可见的载体,以现代主义不可能有的能量、速度而抹去了一些文化特殊性。然而,我们今天也见证了一个不同逻辑在起作用:创造性地将新和旧——本地和跨国的东西——以各种组合放在一起。例如,正是这个逻辑造就了巴塞罗那这样的城市(我在 2003 年艺术未来节 [Art Futura] 的背景下与约翰·盖埃塔谈过,这就导致了这篇文章),这样一个“嬉皮”、“时髦”的地方。在整个巴塞罗那,过去几世纪的建筑风格与酒吧、酒店、博物馆等新的“酷”空间并存着。中世纪与多国文化相遇了,高迪与杜嘉班纳(Dolce & Gabbana)相遇了,地中海时间与互联网时间相遇了。结果是令人难以置信的能量感,人们走在街上就能感受到。正是这种混杂的能量,在我看来是体现了当今最有趣的文化现象的特征。“黑客帝国”混杂了2D/3D 的图像就是这样一个混杂体。电影史家经常在卢米埃尔兄弟和马黑(Marey)之间作对比。卢米埃尔兄弟与其他国家的一些发明家分别都经过了独立的工作,而创建了现在为人所知的电影,其连续动态的视觉效果建立在对离散图像的知觉综合上。早些时候,迈布里奇就开发了一种方法,来拍摄运动物体——比如马的连续照片;最终,卢米埃尔兄弟和其他人想出了如何拍摄足够的样本,以便放映时,它们可以在知觉上融合为连续动态。作为科学家,马黑则被相反的欲望所驱动:不是要创建一个无缝的可见世界的错觉,而是要通过保持后续样本的离散来理解世界的结构。由于他想要能够轻松地比较这些样本,他就完善了一种方法,将活动物体的后续图像叠加在单一个图像上,从而使得变化清晰可见。迈布里奇:《飞驰中的萨利加德纳》
在某种程度上,“黑客帝国”的混杂图像可以被理解为对这两个手段的综合,而这两个手段在百年前一直处于对立。像卢米埃尔兄弟一样,盖埃塔的目标是创造一种连续动态的无缝幻觉。同时,像马黑一样,他也想要能够剪辑、排列那些个别的记录。在文章开头,我提到了不平衡发展的概念,指出往往内部结构(“基础设施”)完全改变后,表面(“上层建筑”)才跟上。这个想法对图像的未来,特别是盖埃塔等人开发的 2D/3D 混杂体意味着什么?就像盖埃塔在 2003 年指出的那样,虽然他的方法可以用来制作各类图像,但到目前为止,它是为电影中所定义的现实主义而服务的,也就是说,观众看到的任何东西都必须遵守物理定律。简言之,我们看到的是旧“上层建筑”,它还坐落在“旧”基础设施之上。那么,我们会看到最终赶上基础设施的“上层建筑”有哪一类图像呢?当然,虽然到目前为止,好莱坞特效电影的图像都遵循现实主义的约束,即物理定律的约束,但这些图像也与以前不尽相同。为了卖电影票、DVD 和所有其他商品,每部新的特效影片都试图超过前一部,来展示一些前所未见的东西。在《黑客帝国》中,那是“子弹时间”;在《黑客帝国 2》中,那是几十个一模一样的克隆人打尼奥的以一敌百的场景;在《黑客帝国 3》中,那则是超级一拳(Superpunch)图像是从内部而不同地构建起来的这一事实,并没有容许了所有类型的新效果;盖埃塔的话说得很明显,对他来说,这样的图像的关键优点是其为虚拟电影摄影所提供的可能性。也就是说,如果以前的镜头运动被限制在动作的一个定义明确的小集合中——包括摇摄、推轨(dolly)、转动(roll),那么,现在它可以在任何可以想象的轨迹上移动,只要导演愿意。盖埃塔从虚拟编排(choreography)的方面谈论了以一敌百的场景:既编排了现实中不可能的错综复杂而漫长的镜头动作,也编排了所有参与到飞行中的身体(这一切都是用盖埃塔的上述方法组装而成的数码再创造)。据盖埃塔说,创建这一个场景大约花了 3 年。所以,虽然原则上盖埃塔的方法代表了迄今在计算机中再创造可见现实的最灵活的方法,但还需要几年时间才能让这种方法被精简程序和标准化到足以使这些优势变得明显。但当这一点发生的时候,艺术家将有一个极其灵活的混杂媒介供他们使用:完全虚拟的电影。与其说我在期望现在的任何一个纯粹形式会支配视觉文化的未来,不如说我认为这个未来属于这样的混杂体。换句话说,未来图像很可能还是摄影式的——尽管只是在表面上。
那么动画呢?它的未来将是什么?就像我试着解释的那样,除了动画影片本身和作为其他活动图像项目一部分的动画序列,动画已经成为一套原则和技术,被今天的动画师、电影人和员工用来创建新的方法和新的视觉风格。因此,我认为不值得问在计算机化之后出现的这个那个视觉风格或创建活动图像的方法是不是“动画”。更有成效的说法是,这些方法大多从动画中诞生,具有动画的 DNA——与其他媒体的 DNA 混合在一起。我认为,这种认为“动画是一个扩展了的场域”的观点是今天思考动画的更有成效的方式,特别是如果我们希望我们的反思对每个关心当代视觉和媒体文化的人都有意义的话。
李洋 | 利奥塔与异电影的谱系学
黑特·史德耶尔 | 从人工智能到人工智障:机器如何观看?